Những hình thể khác Song_đề_tù_nhân

Song đề tù nhân có nhiều hình thể khác, với nhiều cách chơi khác và ma trận thưởng phạt khác nhau.

Song đề tù nhân lặp lại

Trong quyển The Evolution of Cooperation (1984) (Quá trình tiến hoá của sự hợp tác), tác giả Robert Axelrod đã khảo sát một trường hợp mở rộng của song đề tù nhân mà ông gọi là song đề tù nhân lặp lại (iterated prisoner's dilemma - IPD). Trong trường hợp này, những người tham gia phải chọn một chiến thuật nhiều lần, và có thể nhớ được những lần trước. Ông đã mời nhiều nhà nghiên cứu từ khắp thế giới tạo ra những chiến thuật vi tính để đấu nhau trong một cuộc đấu IPD. Những chương trình được gửi về khác nhau rất nhiều về sự phức tạp của thuật toán, thái độ thù địch ban đầu, khả năng tha thứ, v.v.

Axelrod đã khám phá ra rằng khi các cuộc đấu này trải qua một thời gian dài với nhiều người chơi, mỗi người với một chiến thuật riêng, thì những chiến thuật "tham lam" thường có kết quả rất thấp khi so với những chiến thuật "vị tha" hơn. Ông đã dùng khám phá này để đưa ra một giải thích để bù một lỗ trong thuyết tiến hoá: trong chọn lọc tự nhiên chỉ có những động cơ ích kỷ, vậy sao lại tiến hoá đến những hành động vị tha?

Chiến thuật tốt nhất là ăn miếng trả miếng (tit for tat) do ông Anatol Rapoport phát triển. Chiến thuật này là chiến thuật đơn giản nhất, chỉ dùng bốn hàng ngôn ngữ lập trình BASIC, nhưng lại thắng cuộc. Chiến thuật này là hợp tác trong lần đầu, và sau đó chỉ làm theo đối thủ trong trận trước. Một chiến thuật tốt hơn một tí là "ăn miếng trả miếng với tha thứ". Khi đối thủ đào ngũ, trong trận kế tiếp đôi khi vẫn hợp tác với một cơ hội nhỏ (1-5%). Việc này cho phép phục hồi nếu cả hai cứ đào ngũ. "Ăn miếng trả miếng với tha thứ" hoạt động tốt nhất khi trong trò chơi có thể bị mất liên lạc. Việc này có nghĩa là đôi khi đối thủ được thông báo sai về lựa chọn của mình: mình hợp tác nhưng đối thủ lại tưởng là mình đã đào ngũ.

Axelrod kết luận rằng "ăn miếng trả miếng" thành công vì hai lý do. Thứ nhất, nó "tử tế" (nice): nó hợp tác lúc đầu và chỉ đào ngũ để trả đũa khi đối thủ đào ngũ trước, cho nên nó không bao giờ bắt đầu một vòng tròn đào ngũ. Thứ nhì, nó có thể linh động, lúc nào cũng có thể phản ứng việc đào ngũ của đối thủ; nó trừng phạt người kia ngay sau khi họ đào ngũ, nhưng lập tức đối xử tử tế ngay khi họ bắt đầu hợp tác.

Nếu một IPD được lặp lại đúng N lần, và N được biết trước, thì một kết luận thú vị sẽ xảy ra. Trong trường hợp này thì chiến thuật hay nhất cũng sẽ là đào ngũ cho mỗi lần. Điều này có thể chứng minh được theo phương pháp quy nạp. Trong trận cuối, vì đối thủ không có cơ hội trừng trị mình được, lựa chọn tốt nhất sẽ là đào ngũ. Như thế, cả hai sẽ đào ngũ trong trận cuối. Nhưng theo lý đó thì mình cũng nên đào ngũ trong trần trước trận cuối, vì đối thủ sẽ đào ngũ trong trận cuối bất chấp mình làm gì. Và cứ suy luận như thế. Vì thế, nếu muốn cả hai đều hợp tác, cả hai đều không được biết khi nào trò chơi kết cuộc. Một giải pháp là làm số N một số ngẫu nhiên.

Trò chơi thách (Chicken)

Có một loại trò chơi có tổng không bằng không nữa là trò chơi thách (Chicken) được đặt tên theo một trò chơi đua xe. Hai chiếc xe chạy tiến gần đến nhau và đang đà đụng nhau - người đầu tiên đổi hướng xe để khỏi bị tung bị xem là kẻ nhát gan ("chicken"). Cả hai người có thể đổi hướng để tránh tai nạn (hợp tác) hay cứ tiến thẳng (đào ngũ). Trong trò chơi này, nếu đối thủ hợp tác thì ta nên đào ngũ - đây là kết quả tốt nhất. Nếu đối thủ đào ngũ, ta lại nên hợp tác. Trường hợp cả hai đều đào ngũ là trường hợp xấu nhất, nhưng trong song đề tù nhân kết quả xấu nhất là khi mình hợp tác trong khi người kia đào ngũ.

Một ma trận thưởng phạt sẽ giống như sau:

  • Nếu cả hai hợp tác, mỗi người được +5.
  • Nếu một người hợp tác và một người đào ngũ, người thứ nhất được +1 còn người kia được +10.
  • Nếu cả hai đều đào ngũ, mỗi người bị -20.

Trò chơi cam đoan (Assurance)